【レポート】トレーニングセッション:Introduction to Alteryx Machine Learning – Alteryx Inspire 2023
こんにちは、スズです。
現地時間の2023年5月22日(月)~5月25日(木)に、ラスベガスにてAlteryx Inspire 2023が開催されました。本記事では、Alteryx Inspire 2023で開催されたトレーニングセッション『Introduction to Alteryx Machine Learning』についてお届けします。
セッション概要(日本語訳)
データサイエンスの基本原則を理解し、機械学習によって組織全体へのインサイトの共有を促進する方法を学びます。
セッションレポート
はじめに
- 本講座では、機械学習についてお話しします
- 機械学習とは何か、なぜ機械学習に関心を持つ必要があるのか、なぜ機械学習をする必要があるのか
- 本講座には将来予想に関する記述や予測が含まれている場合があります
- 本日行われた予測または仮定と実際の結果が大きく異なる可能性があります
講師紹介
- Pier Bobys, Sr. Solutions Advisor, Advanced Analytics
学習目標
- 本講座での学習目標は次の通り
- 機械学習が日常的にどのように使われているのか
- 教師あり学習と教師なし学習の区別
- 分類と回帰
- 機械学習プロジェクトにどのようにアプローチするのか
Machine Learning in Our Lives
Activity: Machine Learning in Our Lives
- 我々の生活の中に機械学習はどのように使われているのか
- リコメンド
- Amazonでの検索内容に基づいた商品のオススメ
- クレジットカードの不正利用
- クレジットカードで購入したもののデータから典型的な行動パターンの把握
- 延長保証
- 機械などの故障の時期の予測
- スポーツ
- チームプレイヤー側だけでなく、多くの分析が行われている
- 売店での需要に応えるための十分な在庫の確保
- 当日券の売れ行きの予測
- クレジットスコア
- FICOスコア
- リボ払いの残高、クレジットラインの数、人口統計情報など
- FICOスコア
- ダイレクトメール
Machine Learning Methods
Three Different Concepts
- 人工知能
- 人間が行うことをエミュレートしようとしている
- 機械学習
- 人工知能のサブセット
- 回答や情報を持つデータを元に、システムを学習・改善させる
- ディープラーニング
- 機械学習のサブセット
- ニューラルネットワークを組み込んでいる
What Is Machine Learning?
- 本講座の焦点は機械学習
- 機械学習はデータから自動的にパターンを抽出するアルゴリズムが必要
Machine Learning Methods
- 教師なし学習、教師あり学習、強化学習は、機械学習の3つの分野
- 右上の赤色の「教師あり学習」
- 教師ありは人間がモデルと対話する
- 基本的にはラベル付きデータセットを使用する
- 機械学習アルゴリズムはそのデータから学習し、今後を予測する
- 教師ありは人間がモデルと対話する
Activity: FruitTection
- ここでは2つのデータセットがある
- 真ん中のモデルからは3種類のセグメントが得られる
- 1つ目のデータセットはリンゴ、バナナ、ライム
- クラスタリング、教師なし学習
- 2つ目のデータセット
- 似たものを集めて1つのセットにまとめている
- 分類、教師あり学習
Supervised Learning
- 教師あり学習で行うアルゴリズムや分析は主に分類と回帰がある
- 数値を予測したいのは会期
- 分類はカテゴリーやクラスを予測する、イエスかノーかを予測する
How Does Supervised Learning Work?
- あなたが犬を知らないということにして、この写真を見たときにこれまで見たことがないものだと思うでしょう
- 教師あり学習はアルゴリズムに多くのデータを与え、そのデータには多くの属性が含まれている
- 属性とは、犬には4本の足がある、しっぽがあるなど
- 鳥には(犬のような)耳、しっぽがない
- アルゴリズムは、異なる生き物の属性を取り込み、ラベルのデータに基づいて判断する
- 答えが分かっているデータをモデルで学習させ、そこに新しく知らないデータを与える
Unsupervised Learning
- 多くの人は教師なし学習をセグメンテーションと考えるでしょう
- 例えば、ニューヨークタイムズの読者とニューヨークポストの読者は異なるタイプで、その人達に向けたマーケティングはおそらく異なるものになる
- 様々なカテゴリに分けて、そのカテゴリを元にどのような方法で彼らに売り込むかを考えることができる
- 顧客セグメンテーションは教師なし学習によるクラスター分析の大部分を占めている
Data Science Project Life Cycle Methodology - CrlSP-DM
What Is CrISP-DM?
- CrISP-DM(Cross-Industry Standard Process for Data Mining)は、データマイニングの業界標準プロセスという意味
- 機械学習や予測プロジェクトにアプローチするための方法論
- ビジネス理解
- 機械学習モデルを構築する場合、そのデータから何を得たいのかを理解する必要がある
- 自分がやろうとしていることは?解決しようとしている問題は?
- 何をしたいのかから始めないと、多くの無駄な時間を費やすことになる
- データ理解
- 図にはビジネス理解とデータ理解の間に相互に矢印がある
- データがあることを確認してから、ビジネス上の問題で正しいデータがないと気付くこともある
- もう一度問題を考え、どのようなデータがあるかを確認し、データを取得する
- データの準備
- データセットを1つにまとめる、欠損値や外れ値の確認など、モデリングに適したデータを準備する
- モデリング
- データ準備とモデリングの中でエラーが発生することもある
- 評価
- モデルを本番で使用した際に、その予測を信頼できるのかを評価する
- デプロイ
- 全体がサークルシナリオになっており、反復することを意味する
- データに基づいてモデルを作り、予測ができていても、時間が経つと劣化する
- モデルの再教育が必要になる
Introduction to Regression Analysis Predicting Home Value
What Is Regression?
- モデルが実際にどのようなものであるかを理解してもらうために、線形回帰がどのように機能するのかを紹介する
- 回帰、教師あり学習は、別の回帰分析で予測された結果を数値として生成する
- 最終的な数値を予測するための予測変数が必要
Before We Start Predicting
- これらは独立変数と従属変数と呼ぶ
- 予測モデルを構築するために使用するデータセットの列を表す専門用語
- 教師あり学習には答えのあるデータセットが必要
- 従属変数に目標があり、その目標を説明するために独立変数がある
Predicting Home Value
- 家の価値を予測する例
- 7年前にこの家を35万ドルで購入
- 周辺の住宅販売のデータには以前の販売価格と現在の販売価格がある
- どれが従属変数なのか?
- 予測したいのは現在の販売価格
- 予測したい現在の販売価格が従属変数
- 以前の販売価格は独立変数
Analyzing the Graph
- ヒストリカルデータを把握し、XYグラフに落とし込む
- 以前の販売価格がX変数、現在の販売価格がY変数
- 以前の販売価格は35万ドル
- X軸の35万ドルにY軸の値はないため、推測する必要がある
Best Fit
- グラフに3種類の直線をプロットしたとき、データのポイントに適した直線はどれでしょう?
- 実際の線形回帰のアルゴリズムでは、様々な線を見て、全ての線に対して誤差を計算し、最も誤差が小さいものを出す
Observed Predicted Price
- この直線を取得し、35万ドルを見ると、予測される販売価格となる
Introduction to Classification Analyis Prediction Customer Churn
What Is Classification?
- 分類は教師あり学習
- ラベル付けされたデータのトレーニングセットが必要
- 例えば、天気は晴れ、雨、風が強いなど
Predicting Churn
- 例として、通信会社の顧客の解約を予測する
- どの顧客が競合他社に移っていくのか
- 年齢のデータセットがある
- 実際の例ではないが、このデータセットを使って仕組みを説明する
- 解約フラグ(Churn Flag)の0と1は、Yes/No、True/Falseを意味する
Analyzing the Graph
- 従属変数は解約フラグ、独立変数は年齢
- 年齢に基づいて解約するのか?
- 線形回帰で家の価値を予測した際、値をプロットして直線を引いた
- 今回はプロットした点に線を引くことはできるのか?
Logistic Regression
- 直線ではなく、シグモイド曲線が見つかる
- 解約フラグが0から1になる可能性を予測することができる
- ロジスティック回帰は、これらのクラスを線形タイプの方程式にする
- Y軸を見ると、誰かが解約する確率が分かる
- 30歳を対象としてグラフを見ると、解約する確率は高くないことが分かる
The Confusion Matrix Explained
- モデルが優れているかどうかの判断に、混同行列を使うことがある
- 混同行列は、予測と実際の結果の組み合わせ
- 右下は真陽性(True Positive)
- 予測、実際の結果ともにYes
- 左上は真陰性(True Negarive)
- 予測、実際の結果ともにNo
- 右上は偽陽性(False Positive)
- 予測はYes、実際はNo
- 左下は偽陰性(False Negarive)
- 予測はNo、実際はYes
Comparison of Classification and Regression Models
- 回帰と分類の2つのモデルの比較
- ここでの回帰は線形回帰ではなく、数値を予測するという意味
- 分類はデータのクラスを予測するもの
- どちらも教師あり学習であり、モデルの良し悪しは混同行列が役に立つ
最後に
Alteryx Inspire 2023のトレーニングセッション『Introduction to Alteryx Machine Learning』のレポートをお届けしました。
セッション中は受講者からの質問に答えながらセッションが進んでいき、セッションが終了した後も講師に質問するための列ができていました。活発なやり取りのある、充実したトレーニングセッションとなっていました。